導(dǎo)讀:網(wǎng)頁(yè)抓取優(yōu)先策略也稱為“頁(yè)面選擇問(wèn)題”(page Selection),通常是盡可能地首先抓取重要性的網(wǎng)頁(yè),這樣保證在有限的資源內(nèi)盡可能地照顧到那些重要性高的網(wǎng)頁(yè)。那么哪些網(wǎng)頁(yè)才
發(fā)表日期:2019-12-23
文章編輯:興田科技
瀏覽次數(shù):9213
標(biāo)簽:
網(wǎng)頁(yè)抓取優(yōu)先策略也稱為“頁(yè)面選擇問(wèn)題”(page Selection),通常是盡可能地首先抓取重要性的網(wǎng)頁(yè),這樣保證在有限的資源內(nèi)盡可能地照顧到那些重要性高的網(wǎng)頁(yè)。那么哪些網(wǎng)頁(yè)才是重要性高的呢?如何量化重要性呢?
重要性度量由鏈接歡迎度、鏈接重要度和平均鏈接深度這個(gè)方面決定。
定義鏈接歡迎度為IB(p),它主要由反向鏈接(Backinks)的數(shù)目和質(zhì)量決定。首先考察數(shù)目,直觀地講,一個(gè)網(wǎng)頁(yè)有越多的鏈接指向它(反向鏈接數(shù)多),那么表示其他網(wǎng)頁(yè)對(duì)其的認(rèn)可。同時(shí)這個(gè)網(wǎng)頁(yè)被網(wǎng)民訪問(wèn)的機(jī)會(huì)就大,推測(cè)出其重要性也就越高;其次考察質(zhì)量,如果被越多的重要性高的網(wǎng)指向,那么其重要性也就越高。如果不考慮質(zhì)量,就會(huì)出現(xiàn)局部最優(yōu),而不是全局最優(yōu)的問(wèn)題。最典型的就是作弊網(wǎng)頁(yè),人為地在一些網(wǎng)頁(yè)中設(shè)置了大量反策鏈接指向其自身的網(wǎng)頁(yè),以提高該網(wǎng)頁(yè)的重要性。如果不考慮鏈接質(zhì)量,就會(huì)被這些作弊者所利用。
定義鏈接重要度為IL(p),它是一個(gè)關(guān)于URL字符串的函數(shù),僅僅考察字符串本身。鏈接重要度主要通過(guò)一些模式,比如認(rèn)為包含“.COM”或者“HOME”的URL重要度高,以及具有較少斜杠(Slash)的URL重要度高等。
定義平均鏈接深度為ID(p),此為筆者所創(chuàng)。ID(p)表示在一個(gè)種子站點(diǎn)集合中,每個(gè)種子站點(diǎn)如果存在一條鏈路(寬度優(yōu)先遍歷規(guī)則)到達(dá)該網(wǎng)頁(yè),那么平均鏈接深度就是這個(gè)網(wǎng)頁(yè)的又一個(gè)重要性指標(biāo)。因?yàn)榫嚯x種子站點(diǎn)越近,說(shuō)明被訪問(wèn)的機(jī)會(huì)越多,離種子站點(diǎn)越遠(yuǎn),重要性越低。事實(shí)上,按照寬度優(yōu)先的遍歷規(guī)則即可滿足這種重要性高的網(wǎng)頁(yè)被優(yōu)先抓取的需要。
最后,定義網(wǎng)頁(yè)重要性的度量為I(p),它由以上兩個(gè)量化值線性決定,即:
I(p)=a*IB(p)+β*IL(p)
平均鏈接深度同寬度優(yōu)先的遍歷規(guī)則保證,因此不作為重要性評(píng)價(jià)的指標(biāo)。在抓取能力有限的情況下,如果能夠把重要性高的網(wǎng)頁(yè)盡可能地抓完,是合理科學(xué)的,最終被用戶查詢到的網(wǎng)頁(yè)也往往是那些重要性高的網(wǎng)頁(yè)。
盡管這樣看來(lái)已經(jīng)足夠完美,事實(shí)上,還是忽視了一個(gè)重要的要素--時(shí)間。時(shí)間導(dǎo)致萬(wàn)維網(wǎng)動(dòng)態(tài)變化的一面。如何抓取那些新增的網(wǎng)頁(yè)呢?如何重訪那些被修改了的網(wǎng)頁(yè)呢?如何發(fā)現(xiàn)那些被刪除了的網(wǎng)頁(yè)呢?為了保持和萬(wàn)維網(wǎng)網(wǎng)頁(yè)的同步變化,就必須有網(wǎng)頁(yè)重訪策略。通過(guò)該策略可以識(shí)別增加、修改及刪除網(wǎng)頁(yè)這3種網(wǎng)頁(yè)變化的情況。
上一篇:
暫無(wú)信息更多新聞
2020
關(guān)于網(wǎng)站優(yōu)化,關(guān)鍵詞搜索是網(wǎng)絡(luò)搜索索引主要方法之一,就是訪問(wèn)者希望了解的產(chǎn)品、服務(wù)和公司等的具體名稱用語(yǔ)。選擇流量穩(wěn)定的關(guān)鍵詞。下面小編告訴大
View details
2020
網(wǎng)游經(jīng)過(guò)了將近10年的發(fā)展,終于走向了成熟。08年可以說(shuō)是一個(gè)網(wǎng)游蓬勃發(fā)展的一年,在09年1月14日中國(guó)游戲產(chǎn)業(yè)年會(huì)上,新聞出版總署科技與數(shù)字出版司副司長(zhǎng)寇曉偉表示,盡管08年網(wǎng)
View details
2020
關(guān)于搜索引擎優(yōu)化,對(duì)于網(wǎng)站建設(shè)的首頁(yè)可以說(shuō)它就相當(dāng)于人的臉面,因?yàn)槲覀兛匆粋€(gè)人的時(shí)候,首先看到的是對(duì)方的臉,相對(duì)的搜索引擎優(yōu)先的參考對(duì)象就是標(biāo)題了
View details
2020
關(guān)于關(guān)鍵詞優(yōu)化,首先我們要讓現(xiàn)在消費(fèi)者不太好、有需求,首先想到的就是搜索引擎,在搜索引擎輸入關(guān)鍵字,查尋相關(guān)的結(jié)果,換句話說(shuō)通過(guò)搜索引擎來(lái)認(rèn)知和答疑
View details